查看原文
其他

连载(13):统计图形艺术——线性回归

easyPlot图形小组 百步优解
2024-11-28

中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。

生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。

历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。





       

13
线性回归Linear Regression




           

溯源和简介

回归(regression)的概念,是由英国的生物学家和统计学家Sir Francis Galton(高尔顿,1822~1911)在研究身高的遗传特性时提出。在其表哥达尔文的巨著《On the Origin of Species(物种起源)》出版后,促使了他用统计学手段来研究遗传和进化问题。“regression”一词来自拉丁语根,意为“going back”。他和他的学生Karl Pearson在观察1078对父母和子女身高数据时发现 [1],高个子父母(父母平均身高,即原文中的mid-parent height),其子代的身高(child height)通常高于平均水平,但不见得比父母还要高,反之亦然。即,子代身高具有向平均值“回归”的现象(regression towards mediocrity),大自然对进化具有一定的约束力,以保证人类身高的稳定性二避免两极分化。图 13.1和 图 13.2抽象地表达了子女身高向父母平均身高回归的现象。现代意义上的“回归”并非指“向均数靠拢” [2],而是指高尔顿对于变量间数量关系评价的方法。


 图13.1: 父母与子女身高向均数回归现象


图13.2: Galton原始文献揭示

父母身高和子女身高的关系


                   

               

           


           

应用场景 
  1. 通过散点图和拟合的回归线展示具有线性趋势之两指标间的关系。

  2. 通过拟合回归线的可信区间带(confidence band)和参考区间带(reference band),为条件参数估计和异常值识别提供更丰富的信息。

                   




应用示例


01直线回归Linear Regression





例: 本节用例为美国加州教育部所收集的400所小学的学生学业能力测评(academic performance index, API)数据,每一条记录代表一所小学,来源于R包survey中的数据集api。该数据集中包含学生2000年、1999年学习成绩(API)和班级规模、入学率、贫困情况等其他数据。为了便于展示,本例将有确实值的记录删除,最终保留295条记录以供分析。



下图展示2000年学生学业成绩(api00)和接受膳食补贴的学生比例(meals)之间的线性关系(图 13.3)


由图可见,两者呈现线性趋势。散点图中间的直线即为回归线,表示接受餐补学生不同比例下的学业成绩的均数估计值(条件均数);回归线两侧的“带”即为95%可信区间带,表示各条件均数的可信区间估计。


两侧的boxplot反映两指标的分布情况。详情可参见“07 散点图”一节知识点。





图13.3:学生学业成绩和接受餐补学生比例关系散点图



例: 本例使用《医学统计学(第三版)》中10名3岁男童体重与体表面积(Body Surface Area, BSA)的例子来展示直线回归五线谱(图 13.4)。



在直线回归模型中,常绘制五线谱图,即回归线、各条件均数的95%可信区间带和给定X时Y值的容许区间(tolerance band)(图 13.4),容许区间就是总体中X固定时,个体Y值的波动范围。







图13.4:10名3岁男童体重与体表面积回归五线谱









02双变量参考值椭圆Bivariabe Ellipse Interval





在一维空间中,参考值范围是一个区间。例如,对于符合正态分布的数据的95%参考值范围可通过 (Mean-1.96SD, Mean+1.96SD)而获得。而在二维空间中,对于两个服从正态分布且呈具有相关性的指标来说,参考值范围不是独立的区间,而是一个椭圆(图13.5)。


例:本例使用500名江苏省小学女生的身高体重数据来展示参考值椭圆,在椭圆之外的点即为潜在离群值。



注意:这里的“参考值椭圆”,和上例中的“参考值范围带”,有何区别?在识别具有一定相关性的两个指标的潜在离群值,该用哪一种方法?





图13.5:500名小学女生身高体重

回归参考值椭圆









03直线回归误差线图Regression with Deviations





在评价线性回归模型时,通常会使用决定系数  来评价,同样也可以用回归的预测偏差来评价,即观测值到回归线的纵向距离(S)。S越小,说明模型拟合的越好,观察值更接近拟合线。


例:续首示例(图 13.6)。





图13.6:学生学业成绩与接受餐补

学生比例回归误差线图









04直线回归响应面Linear Regression Response Surface





单变量线性回归可用二维散点图展示,两个自变量的回归模型需要用3D图形来展示。


例:本例基于上例的第一个模型(lmfit1),用ploty包实现三维散点图和动态交互(图 13.7)。





图13.7:三维散点图和响应面









05回归模型效果评价Regression Performance Rader Plot






模型拟合效果,需要客观指标来评估 [3],常见的有:


  ,决定系数(multiple correlation coefficient, determination coefficient),可反映模型的拟合优度(goodness of fit),代表的是一个或多个因变量与自变量线性组合的总的相关关系,即预测变量能解释结果变量变异的百分比例,范围为0到1,  越大代表拟合的越好


  ,校正负相关系数(adjusted multiple correlation coefficient),又称修正复相关系数,在  基础上对方程中自变量个数进行了“惩罚”,只有当统计学意义上的变量被纳入回归方程,  方会增加


AIC,赤池信息准则(Akaike’s Information Criterion),是日本学者赤池于1973年提出[4]。AIC处理统计问题大致分为三个步骤:提出统计模型,由极大似然估计法进行参数估计,根据AIC最小化准则来优化模型。AIC鼓励数据拟合的优良性但应尽量避免出现过拟合的现象。


BIC,贝叶斯信息量(Bayesian Information Criterion),对部分未知的状态用主观概率估计,然后用贝叶斯公式对后验概率进行修正,最后再利用期望值和修正概率做出最优决策。AIC和BIC均引入了对模型参数个数的惩罚项,但BIC的惩罚力度更大,更倾向于选择精简模型。


RMSE,均方根误差(root mean squared error),模型预测的结果与实际观察值间的平均误差,用来衡量观测值与预测值之间的偏差,RMSE越低,效果越好。


RSE,残差标准误(residual standard error),是对回归模型失拟合(lack of fit)的度量,RSE越小,代表方程拟合的越好。



例:本例中使用学生的学习成绩(api00)和享受膳食补贴的学生比例(meals)、学习英语的学生比例(ell)做3种简单的线性回归方程比较,可使用performance包中的compare_performance函数来比较几种回归模型的优劣,并做雷达图来更直观地显示。根据AIC和复相关系数R可看出拟合的第一个方程更好(图 13.8)。





图13.8:回归雷达图















注意事项:
  1. 进行线性回归,首先要通过散点图观察有无宏观线性趋势,有无不等方差等违背线性回归“LINE”要求的情况
  2. 离群点或强影响点并非一定是异常点,而是提示研究者需要进一步核查数据的准确性,首先要排除是否存在数据错误,然后判断是否需要采取变量变换等措施。
  3. “异常点”或许蕴含重要信息,不可简单的删除了事。所有删除数据的依据和操作都应如实记录,以免主观判断而影响样本的代表性,降低数据的“完整性(data integrity)”,进而有损结论的外推性。



以上为线性回归在医学研究中的常用场景示例,尚有更多扩展。篇幅有限,欢迎联系获取源码。
参考文献:
  1. Galton F. Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland [Internet]. 1886;15:246–63. Available from: http://www.jstor.org/stable/2841583

  2. Bland JM, Altman DG. Statistic notes: Regression towards the mean. 1994;308(6942):1499. Available from: https://www.bmj.com/content/bmj/308/6942/1499.full.pdf

  3. Burnham KP, Anderson DR. A practical information-theoretic approach. 2002;2.

  4. Akaike H. A new look at the statistical model identification. 1974;19(6):716–23.







写作:魏永越*,张隆垚

排版:李   颖

审阅:陈   峰


关注公众号,联系获取源码


欢迎供稿 | 敬请斧正

easyPlot小组 (easyplot@126.com)

责任作者 (weiyongyue@126.com)


Powered by 



END



往期回顾BREAK AWAY连载(1):统计图形艺术——条形图
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
连载(12):统计图形艺术——曲线平滑
统计图形艺术——“图形”英文词意辨析



继续滑动看下一个
百步优解
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存